上次說到了常常使用這個kernel
可以發現參數其實滿多的,所以應該要怎麼選擇呢?這邊使用的方式就是簡單的最大化likelihood而已,這是因為如果要完整的使用貝氏觀點導入先驗的話,這邊會造成結果無法精確的積分,會需要很複雜麻煩的近似。
那既然要最大化likelihood,我們就最大化log likelihood也是一樣的
並且把這個式子對於每一個參數微分
因為這不是concave,所以這邊要利用梯度迭代去計算,可以很簡單的以下面這個方式更新
需要設定的有學習率以及中止條件,這樣的方式就是ARD(Automatic Relevance Determination)的一個例子。
更進一步的推廣這個方式,我們可以定義出更複雜的kernel
我們使資料中每一個維度都有自己的參數,也就是式子中的eta,而經過ARD,可以得到類似下圖的參數變化圖(下圖出自PRML - p313)
可以看到有些參數的重要性隨著迭代次數逐漸下降,可以清楚的感受到這樣的方式,可以幫助我們篩選掉資料中對於Gaussian Process預測沒有幫助的維度。
講了那麼多Gaussian process的東西,明天我們就來實做一下!